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© Verfahren zum Training eines neuronalen Netzes mrt dem nicht deterministischen Verhaiten eines 
technischen Systems 

© Verfahren zum Training eines n euronalen Netzes mrt dem 
nicht deterministischen Verhatten eines technischen Sy- 
stems, 

a) bei dem das neuronals Netz mrt dem technischen System, 
oder einem Modell davon so in einen Regelkreis etngebun- 
den wird, daS das neuronale Netz als Ausgangsgro&e 
mindestens eine Stellgrd&e an das technische System, oder 
sein Modell abgibt und das technische System oder sein 
Modell aus der vom neuronalen Netz zugefuhrten Stellgro- 
&e, mindestens eine Regelgro&e erzeugt, die dem Neurona- 
len Netz als EingangsgroBe zugefuhrt wird, 

b) bei dem die Stellgrd&e mrt einem Rauschen von bakann- 
. ter Rauschverteilung Oberlagert wird, bevor sie dem techni- 
schen System oder setnem Modell zugefuhrt wird, 

c) und bei dem die Gewichte des neuronalen Netzes in 
Reaktion auf die durch das aufgepragte Rauschen v erander- 
te Regelgro&e wie folgt oingestelrt warden: 
es wird von einer Kostenfunktio n bewertet, ob die Gewichts- 
anderung am Netz, die nach bekannten Lemverfahren 
eingesteltt wird, eine Verbessening der Regelgro&e in Bezug 
auf ein Solrverharten des technischen Systems bewirkt hat 
und solche Gewichtseinstellungen warden durch die Kosten- 
funktion begunstigt. 
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Beschreibung 

Die Erfindung bezieht sich auf ein Lemverfahren zur neuronalen Modelliemng von dynamischen Prozessen 
mit dem erreicht werden soil, dafi das neuronale Netz in der Lage ist Prozesse mit hohem Anteil an stochasti- 
5 schen Vorgangen zu regehL 

Neuronale Netze fmden in die vielfaltigsten technischen Gebiete Eingang. OberaH dort, wo es gilt, aus 
komplexen technischen Zusammenhangen und aus unzureichenden Informationen Entscheidungen abzuleiten, 
erweisen sich neuronale Netze als besonders geeignet Zur Bfldung einer oder mehrerer AusgangsgroBen 
werden dem neuronalen Netz beispielsweise eine oder mehrere EingangsgrdBen zugefuhrt. Hierzu wird ein 

io solches Netz zunachst fur den spezieUen Einsatzfall trainiert, ansdilieBend generalisiert und danach wird es mh 
einem anderen Datensatz als den Trainingsdaten validiert. Neuronale Netze erweisen sich fur viele Einsatzfalle 
ais besonders geeignet, da sie universell trainierbar sind. 

On haufig auftretendes Problem im Zusammenhang mit dem Einsatz von neuronalen Netzen besteht aller- 
dings darin, daB haufig die Eingangsdaten zum Training, oder beim Betrieb des Netzes nicht vollstandig sind. 

15 Dieser Sachverhalt und auch die Tatsache, daB die MeBwerte fur den Aufbau einer Zeitreihe, welche dem 
neuronalen Netz zugefuhrt wird, haufig ungenau oder verrauscht sind, bewirken, daB teiiweise schlecfate Lerner- 
gebnisse der Netze endelt werden. Es sind verschiedene Moglichkeiten zur Optimierung von Lernvorgangen bei 
neuronalen Netzen bekannt. Aus den IEEE Transactions on Systems, Man and Cybernetics, VoL 23, No. 3, 
May/June 1993, Seiten 686 bis 697 ist ein Lemverfahren fur ein neuronales Netz bekannt, bei dem dieses Netz in 

20 einem Regelkreis eingebaut wird und mit der Regeldiff erenz der Regeistrecke trainiert wird. 

Ebenf alls wird dort in Form einer Kostenfunktion ein Algorithmus angegeben, urn die einzelnen Gewichte an 
den Neuronen einzustellen. Aus der deutschen Offenlegungsschrift DE 41 38 053 Al ist ein hybrides Lemverfah- 
ren fur kunstliche neuronale Netze bekannt Mh diesem zweistufigen Verfahren soli vor alien Dingen auch eine 
Optimierung auch nicht diff erenzierbarer Zielfunktionen in Anwesenheit vieler iokaler Optimaiwerte bei ver- 

25 tretbarem Rechenaufwand innerhalb vertretbarer Zeitraume gegeben sein. Hierzu wird in einer ersten Stufe das 
Netz mit Hilfe eines genetischen Optimierungsverfahrens trainiert und in einer zweiten Stufe kommt ein 
Gradientenverfahren, wie z.B. der Back- Propagation- Algorithmus zur Anwendung. Aus dem US-Patent 
5 396 415 ist ein Neuro-PID-Regler bekannt In dieser Anwendung wird ein neuronales Netz als Ersatz fur einen 
PID-Regler in einem Regelkreis eingesetzt Dem Netz werden hierzu PID-Eingange zugefuhrt, worauf es als 

30 PID-Regler arbehet, urn damit Trainingsaufwand beim Trainieren des Netzes zu sparen und eine effizientere 
Regelung zu erzielen. Aus dem US-Patent 5 159 660 ist eine universelle Prozefiregelung bekannt, welche sich 
kunstlicher neuronaler Netze bedienL Den neuronalen Netzen, welche fur diese Regelung eingesetzt werden, 
werden hierzu als Eingange Zeitreihen von Fehlerwerten zugefuhrt. Die Neuronenpfade werden dabei als 
Funktion dieser Fehlerwerte gewichtet und ergeben somit den gewunschten ProzeBausgang. Mit derartigen 

35 Reglem konnen effizient Prozesse mh nicht Iinearem, zeitvariablen, gekoppelten und variablen Strukturverhal- 
ten so wo hi mit variablen Prozefiparametem oder Strukturunsicherheiten geregelt werden. Es gibt jedoch 
andere Prozesse, welche mit hohem Anteil an stochastischen Vorgangen behaftet sind, fur welche die genannten 
Lemverfahren nicht optimal geeignet sind. 
Bei Prozessen mit hohem Anteil an stochastischen Vorgangen tritt insbesondere das Problem auf, daB die 

40 Trainingsdaten Zufallscharakter haben und deshalb bisher keine Methode existiert neuronale Netze mit dem 
Verhalten solcher Systeme zu trainieren. Bislang gibt es keine Ansatze, welche dieser besonderen Problematik 
Rechnung tragen. 

Die der Erfindung zugrundeliegende Aufgabe besteht deshalb darin, ein Lemverfahren anzugeben, mit dem 
der Lernvorgang beim Training eines neuronalen Netzes verbessert werden kann, welches das Verhalten eines 
45 technischen Systems mit hohem Anteil an stochastischen Vorgangen trainieren solL 
Diese Aufgabe wird gemaB den Merkmalen des Patentanspruchs 1 gelost 
Weiterbildungen der Erfindung ergeben sich aus den abhangigen Anspruchen. 

Besonders vorteilhaft konnen mit dem erfindungsgemafien Verfahren neuronale Netze mit dem Verhalten 
von technischen Systemen trainiert werden, welche ein nahezu vollstandig stochastisches Verha lten aufweisen, 

50 da sich das erfindungsgemaBe Verfahren statistischer Methoden zur Auswertung der Eingangsdaten beim 
Training des neuronalen Netzes bedient Besonders vorteilhaft werden hierzu die StellgroBendaten, zur Erzeu- 
gung einer neuen RegelgroBe des technischen Systems, mit Hilfe eines Rauschens von bekannter statischer 
Verteilung variiert Durch eine haufige Wiederholung dieses Vorgangs und eine Bewertung der RegelgroBe des 
technischen Systems anhand einer Kostenfunktion, wobei solche Gewichte, welche eine Verbesserung des 

55 Verhaltens des technischen Systems in Bezug auf ein gewunschtes SoOverhalten bewirken mh Hilfe der Kosten- 
funktion starker gewichtet werden, kann eine optimale Gewichtseinstellung des neuronalen Netzes erreicht 
werden, Zur Einstellung der Gewichte in Bezug auf den Fehlergradienten werden bekannte Verfahren fur das 
Training neuronaler Netze verwendet 

Besonders vorteilhaft kann die Anzahl der zum Training des neuronalen Netzes aufzunehmenden Zeitreihen 

60 variiert werden, damit ist dem Fachmann die Moglichkeit gegeben, die Genauigkeit der Einstellung der Gewich- 
te des neuronalen Netzes in Abhangigkeit der ihm zur Verfugung stehenden Rechenzeit oder Rechenkapazitat 
zu beeinflussen. 

Vorzugsweise konnen durch Modellierung oder durch Einsatz des realen technischen Systems mehrere 
Zeitreihen gewonnen werden, und deren Mittelwerte zum Training des neuronalen Netzes verwendet werden, 
65 da sich so eine bessere statistische Signifikanz fur die Richtigkeit der Trainingswerte ergibt. 

Vorteilhaft wird beim Training des neuronalen Netzes als bekannte Rauschverteilung zur Variation der 
StellgrdBe eine GauBverteilung verwendet, da sich damit der Fehlergradient zum Training des neuronalen 
Netzes besonders einfach berechnen laBt. 
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Vorreilhaft werden mehrere Zeitreihen simuliert and gemessen, da so eine Aussage fiber das Verfaalten der 
Rege5ri£d« SmS?Systems unter verschiedenen Umstanden erhahen werden kann s^hdadarch 
die StSdk der Zeitreihe verbessert. Vorteflhaft kann nicht nur die StellgrdB* sondern auch die v °° 
etaem RausrfL bekannter VerteUung uberlagert sein, ohne daB das Lernverhalten des neuronalen Netzes nach 
dem erfindungsgemaBen Verf ahren beeintrachtigt wird 

Im folgenden wird die Erfindung anhand von Figuren weiter eriautert 

Fig. 1 zeigt eine Zeitreihe und ein Systemverhalten, 

Fie. 2 cibt ein Beispiel des erfindungsgemaBen Verfahrens an. „ . 

fJ 1 fdgt eine Zeitreihe von Melwerten. welche beispielsweise einem neuronalen Netz zugerub^ werden 
konrfen! Die Erlauterung dieser F.gur dient insbesondere dazu die mathematischen Grundlagen zur Behandhmg 
Se^d^emaBerVerfahrenVzu durchleuchten. GemaB ihrer zeitbchen AMolge werden diese MeBwerte 
b^sSdsweisevon einem technischen System erfafit und gemaB ihrer zeitlichen Abfolgemit * bis *-* bezerch- 
SSe^Swird m F«.ldavona^gegangen,daBderWert 

Werte, als benachbarte Werte dieses fehlenden MeBwertes, smd y«-4, y.-a^ y«-i und y,. ^ jolch f ehlender 
MeBWertineiner Zeitreihe kann beispielsweise dadurch entstehea daB zum fragiichen Ze.tpunkt das MeBgerat, 
^ WerteSSmJnicfat funlctionierte, oder daB es zwischen einzemen gemessenen Werten ^gersche.nt 
unT das neuronale Netz besser zu trainieren, diesem einen weiteren Wert zuzufuhren. der _fagefc noch zu 
besrimmen ist Beispielsweise wird in Fig. 1 weiter davon ausgegangen, daB der Wert y t - 3 fehlL Die im Markov 
blanket relevanten Werte, als benachbarte Werte dieses fehlenden MeBwertes, smd yt-5. y t -4, y t 2 jund I y.-i. 
Die Anwendung des erfindungsgemaBen Verfahrens zum Training hat nach der erfindenschen dee zur Folge, 
daB das Netz mit besser zutreffenden Gewichtungsfaktoren ausgestattet wird JD.es ist der Fall wed ^ch die 
Erfindung der Statistikbedient undes so ermoglicht auch aus Zeitreihen, welche Prozessen mit hohem stochaso- 
schen Antei] von Vorgangen entnommen werden, die relevanten Trainingsdaten zu extrahieren. 

eSooden vortefltaftwerden die Daten fur die SteUgroBe dabei durch ein Rauschen mit bekannter Rausch- 
verteilung, wie beispielsweise GauB-, oder Poisson- VerteUung vanierL 

ffierdurch wird die Einstellung der Gewichte an den Neuronen des Netzes wesentlich veremfacht, da sich die 
mathematischen Terme fur die Berechnung der Regeldifferenz wesentlich einfacher gestalter itaatem 
Kombinarion imt emer Kostenfunktk»n, welche solche Gewichtseu^^^ 

Sollzustand am technischen System herstellen, ergibt ein vorteUhaftes Tramrngsverfahren, welche nut ver- 
gleichsweise geringem Rechenaufwand zu guten Trainingsleistungen der Netze 

Fur 1 zeigt dabei die Zeitreihe in Verbindung mit emem zu tramierenden neuronalen Netz NNW. Es ist zu 
erkenVen, daB y eine zeitabhangige Variable darsteUt, welche das Systemverhalten SY emes technischen Sy- 
stems reprasentien. Wie erkannt werden kann, entsprechen die Werte y, bis y,- 6 MeBwertes welche dem 
Systemverlauf SY entnommen werden. Durch die gestrichelten Pfeile zu den jewedigen Zeitpunkten ist symbob- 
siert, daB diese MeBwerte dem neuronalen Netz NN W beim Training zugefuhrt werden sellers 

ffier ist der fragliche MeBwert M fur den Zeitpunkt y t -2 mcht vorhanden. Fur diesen MeBwert M ist seme 
Wahrscheinlichkeitsdichte el angegeben. Diese Wahrscheinlichkeitsdichte e kann beispielsweise auveiner vor- 
gegebenen bekannten Fehlerverteilungsdichte der ubrigen bekannten MeBwerte ruckgerechnet werdea Insbe- 
sondere wird dabei ausgenutzt, daB sich der fehlende MeBwen zwischen zwei bekannten MeBwerten befinden 
muB und damit auch dessen Fehler durch die Fehler der benachbarten und der resthchen MeBwerte der 
Zeitreihe begrenzt wird Die zugrundeliegende Zeitreihe laBt sich wie folgt beschreiben: 

yt = f(yt-i,yt-2.-..,yt-N)+et (1) 

Dabei ist f entweder bekannt oder wird hinreichend durch ein neuronals Netz modelliert. e« bedcutet dabei 45 
einen addiriven unkorrelierten Fehler mit zeidichem Mittelwert 0. Dieser Fdder weist dabe, und das un fur das 
erfindungsgemaBe Verf ahren essentiell eine bekannte oder vorgegebene Wahrschemhchkeitsdichte P e (s) auf 
und versmnbUdlicht typischerweise die unmodeUierte Dynamik der Zeitreihe Beispielsweise soil fur einesolche 
Zeitreihe, ein zukunftiger Wert vorhergesagt werden. Dabei ist zu beachten, daB zukunfage Werte relatrvzu der 
momentanen gewahlien Zeitposition zu verstehen sind Das heiBt fur einen Zehpunkt y, 5 ist der Zeitpunkt y,-4 
ein zukunftiger Wert. Unter diesen Voraussetzungen laBt sich die bedingte Wahrscheinlichkeitsdichte fur emen 
vorherzusagenden Wert der Zeitreihe wie folgt beschreiben. 

P(yt|yt-i.yt-2...- ji-k) = Pe(yt-i,yt-2,.. -yt-N» (2) 

Wie berehs erwahnt muB die Fehlerverteilungsdichte bekannt sein. Diese Verteuungsdichte kann entweder 
anhand des Systemverhaltens und bekannter anderer auBerer GroBen ermittelt oder vorgegeben werden. Erne 
typische Fehlerverteilung, die in der Praxis auftritt ist die GauBverteilung. Mit einer solchen angenommenen 
GauB'schen Fehlerverteilung laBt sich die bedingte Wahrscheinlichkeitsdichte wie folgt beschreiben: 

P(yt|yt-i.yt-a-..,yt-N) = Ciyt-uHy\-uyt-nW (3) 

Darin bedeutet G (x; c o 2 ) die Notation fur eine normale Dichte, die bei x bestimmt wird mit einem Zenmim C 
und einer Varianz o 2 . Geht man davon aus, daB das zu beschreibende System in Form einer Folge von Werten 
auf einer Zeitachse dargesteUt wird, so kann man die einzelnen Werte von y, auch als Zufallsvanable ui emem 
probabilistischen Netzwerk auffassen. Beispielsweise besteht das Problem des Netzes dann. einen Wert der 
Zeitreihe vorherzusagen, indem die vorhandene Information aus den resthchen Werten moglichst vollstendig 
verwendet wird Unter Voraussetzung der Annahmen, die zuvor gemacht wurden. laBt sich die gesamte Wahr- 
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scheinlichkeitsdichte der Zehreihe wie folgt beschreiben: 



Dabei wird davon ausgegangen, daB y t -k mit k < N der fehlende Wert ist_ Mit der Bezeichnnngy°={y t -k} fur 
die Menge der unbekannten Werte und y m =jy t -i, ... ^ t -h-N}/{yt-k} kann der erwartete Wert der in der 
io Zehreihe vorherzusagen ist wie folgt beschrieben werden: 

E(y t |M t -i) = JfCyt-i^.^yt-fe.-^t-N)?^!^^ (5) 

Dabei gelten folgende Voraussetzungen: 

15 Mt-i steht fur alle Messungen bis zum Zeitpunkt t— L Die voranstehende Gleichung ist die grundlegende 
Oleichung fur die Vorhersage mh fehlenden Daten. Dabei ist besonders zu beachten, daB die Unbekannte yt-k 
nicht nur von den Werten der Zeitreihe vor dem Zeitpunkt t — k abhangt, sondern auch von den Messungen nach 
t—k. Der Grund besteht darin, daB die Variablen in j^Uyt ein minimales Markov blanket von y t -k formen. 
Dieses minimale Markov blanket besteht aus den direkten Vorfahren und den direkten Nachfahren einer 

20 Variable und alien direkten Vorfahren von Variablen des direkten Nachfolgers. Im betrachteten Beispiel in 
Fig. 4 sind die direkten Nachfahren y t . - . yt— k+ t- Die direkten Vorfahren sind: 

y t -k-i.--yt-k-N 

25 und die direkten Eltern der Nachf olger der Variablen sind: 

y t _i ...yt-k-N+i. 

Aus den theoretischen Grundlagen ist bekannt, daB eine Variable unabhangig von einer anderen Variablen 
30 dieses Netzwerkes ist, wenn die Variablen innerhalb des Markov blankets bekannt sind. Deshalb wird die 
benotigte bedingte Dichte aus Gleichung (5) wie folgt bestimmt: 

P(y° | y 00 ) cc P(y t .i | y t _2, - . - yt-k, . . . yt-i-N> 

x P(y t -2 1 yt-3 ,y t -k , - - . , yt-2-N) - - . P(yt-k I yt-k-i , . . - » yt-k-N> (5b) 

35 

Der hier beschriebene Fall eines fehlenden MeBwertes kann auch o auf mehrere nebeneinander tiegende 
fehlende MeBwerte ausgedehnt werden. Falls dies der Fall ist, kann die bedingte Dichte in Gleichung (5) wie im 
f olgenden beschrieben, bestimmt werden. Fur diesen Fall sei 

40 {y t -i,y t -2».--.yt-n} (5c) 

die Menge aller fehlenden Werte der Zeitreihe zwischen dem Zeitpunkt t — 1 und t — N, und weiterhin sei 
y™ C {y t _ lf y t _ 2 , . . . .y,} (5d) 

45 

die Menge aller MeBwerte bis zum Zeitpunkt t — 1. Auch gilt 
PC^I^IXyt-i,...^!) (5e) 

so wobei die rechte Seite in (5e) aus Gleichung (4) erhalten wird. Im allgemeinen ist das Integral in Gleichung (5), 
wobei 

P^/y^in Gleichung (5) uber die Gieichungen (2% (4) und (5b) bis (5e) bestimmt wird, fur die Funkdon f(X falls 
dies eine nichtlineare Funkdon ist, nicht analytisch losbar. Details fur die numerische Losung mit Hilfe statisti- 
scher Methoden werden im Zusammenhang mit Fig. 2 angegeben. Fur den Fall, daB ein weiterer MeBwert, der 

55 Zehreihe nachgebildet werden soli, sieht das Verfahren eine iterative Approximation der Wahrscheinlichkeits- 
verteilung der fehlenden Werte vor. Beispielsweise sei fur das Training des Netzes zusatzlich der Wert L fur den 
Zeitpunkt yt-3 nachzubilden. Fur diesen MeBwert M ist seine Wahrscheinlichkeitsdichte e2 angegeben. Diese 
Wahrscheinlichkeitsdichte e2 kann beispielsweise nach dem erfindungsgemaBen Verfahren aus einer vorgegebe- 
nen bekannten Fehlerverteilungsdichte der ubrigen bekannten MeBwerte ruckgerechnet werden. Fur die Ap- 

60 proximation der Wahrscheinlichkehsverteilung von zwei solchen fehlenden Werten L und M wird zunachst L 
beispielsweise als bekannt vorausgesetzt oder geschatzL Daraus wird die Verteilung von M berechnet und 
gemiB dieser Verteilung ein Wert fur M zufadig bestimmt. Mit diesem bekannten Wert M wird anschlieBend in 
derselben Weise L bestimmt Dieser Vorgang wird iteriert. Die Folge der so ermhtelten Werte approximiert die 
gemeinsame Wahrscheinlichkehsverteilung von L und M. Dieser Iterationsvorgang lauft vorzugsweise so lange 

65 ab, bis eine hinreichende Genauigkeit der Werte gegeben ist, oder bis das Netz genau genug trainiert ist. Fur 
mehr als zwei fehlende Werte verfahrt man analog. Es wird immer jeweils ein Wert gemaB der Verteilung 
bestimmt, die sich ergibt, wenn alle anderen als bekannt angenommen werden. 

Fur den Fall, daB yi, ... yi mogiiche Werte der Zeitreihe darstellen sollen y 01 Q {yi, . . . ,yt} alle MeBwerte 
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bezeicfanen und y° = {yi^..,yt} alle unbekannten Werte bezeichnen. Das neuronale Netz NN W . welches die 
Funktion f modellieren soil werde beispielsweise mit einem Satz von Gewichten w parametrisiert. Dann gilt: 

f(y t -i, . . . ^t-N) = NNw(yt-i, - . . tyt-N) 5 
Die logarithmische Wahrscheinlichkeitsfunktion lautet dann: 

L = log{PM(yuyt-i. - - - y2^i)dy° 

wobei dann die gemeinsame Wahrscheinlichkeitsdichte sicfa zu 10 



approximiert und fur das neuronale Netz folgender Zusammenhang fur die Berechnung der Fehlerverteilungs- 
dichte gilt: 

P*(yt ! yt- 1, yt-2 . . - , yt-N) = Pe (yt - NN*(yt-i, yt-2, • . - .yt-N) (7) » 

Fur das Lemen mit Hilfe von Backpropagation, oder anderer Gradienten basierter Lemalgorithmen wird nun 
noch der Gradient der logarithmischen WahrscheinHchkeitsfunktion benotigt, welcher sich zu: 



25 

(8) 



dw dw 

ergibt Es ist anzumerken, daB hierbei von bekannten Ausgangsbedingungen fur yi, . . . ,yN ausgegangen wird. Fur » 
den Fall, daB eine GauBverteilung fur die Fehlerverteilung vorliegt ergibt sich daraus: 

X J(y, -NN w (y H ,..., yHf )) d NN w(y^---.y.-K) pM (y ua) , y - )dy *<n (8a) 

wobei 

40 

die fehlenden Werte fur die Eingange des Netzwerkes darstellen und (8a) zeigt, daB falls alle yi... yi-N bekannt 45 
sind, das Integral verschwindet 

Falls die Me8 werte von einem zusatzlichen aber bekannten Rauschen uberlagert werde n ergeben sich die 
f olgenden Zusammenhange. Beispielsweise gilt wieder: 

yt = f(yt-uyt-2,.-.yt-N)+c; 50 

In dieser Variahte der Erftndung soU jedoch kein direkter Zugriff auf y t bestehen. Anstatt dessen wird die 
Zeitreihe 



z t « yt + 5, 

gemessen. Darin bedeutet 6t ein unabhangiges Rauschen mit Mittelwert NuIL Unter der Voraussetrung, daB z 
{zi . . . z t - 1} und y = {y! . . . y t } gelten ergibt sich die Gesamtwahrscheinlichkertsdichte zu: 



t t 

p^z)=p(y N _.,yjnP(yi'y l -i.»-yi-N)IIP(Ziiyi) (8b> 



55 



60 



l=N+l 

damit laBt sich die Rechenvorschrift fur den erwarteten nlchsten Wert der Zeitreihe angeben. 65 
E(yi | z = J f(y t -i n . . . ,yt-N)P(yr-i, - - - .yt-N | z)dy t _i . . • dy,_ N (9) 
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Ebenso kann der Gradient der Wahrscheinlichkeitsfunktion fur das Training berechnet werden. Fur den Fall, 
daB eine GauBverteilung des Rauschens mit 

z r= {zi ...2t[ 

voriiegt, ergibt sich: 
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f-±J(y-NN.(^.-^)) 3NN -V yH ' ) 

xP M (y l ....,y I _ N iz)<fy I ...dy t _ N (9a) 

Dem neuronalen Netz werden beispielsweise Werte zugefuhrt, die verrauscbt oder nicht genau Ibes^bar 
sind. Durch die Approximation der Gewichte im neuronalen Netz werden dabei uber die Funktion f, welche 
SbeidS das neuronale Netz nachgebfldet wird neue Werte der Zeitreihe besttnmbar. Eheseneuen Werte 
der Zeitreihe werden im AnschluB dem neuronalen Netz NN. zugefuhrt. welches daraus wiederum f durch 
Nachbfldung der Funktion f neue Werte der Zeitreihe bestimmt Dieser iterative Vorgang wird solange fortge- 
setzt, bis eine hinreichende Genauigkeit der zu bestimmenden Werte erreicfat wurde. . r . 

Zur genauen Bestimmung f ehlender Werte mit Hilfe der Monte Carlo Methode wird von folgenden Grundla- 
gen ausgegangen. Es ist hier zu beachten, daB alle Losungen die Form 

Jh(u,m)P(u|m)du (9b) 

aufweisen, wobei u den Satz von unbekannten Variablen und m den Satz von bekannten Variablen bedeutet Ein 
Integral dieser Form kann beispielsweise gelost werden, indem Zufalkproben der unbekannten Vanablen 

gemtfi P(u|m) gezogen werden. Beispielsweise werden diese Proben mit u> u s bezeichnet. Daraus ergibt sich 

folgender Zusammenhang fur die Annaherung: 

Jh(u,m)P(ulin)du= ^J^hbu'.m) . (9c) 

^ *=i ■ 

Es ist zu beachten, daB in dieser Gleichung u den Wert y.-k, welcher fehlt, entspricht. Mit &tter e TGatan&g^ 
maBen Losung reduziert sich das Problem also darauf, aus P(u|m) Proben zu Ziehen. Fur den Fait daB lediglicn 
eine Variable fehlt, also beispielsweise lediglich eine Ruckfuhrung auf getrennt wurde, reduziert sich das Problem 
also auf das Probenziehen aus einer einvariablen Verteflung, welche mit Hilfe des -samphng-importance-resam- 
pling- oder anderensampling-Techniken[l]getan werden kann. ^ _ ^ . »» 

pL. 2 zeigt ein Blockschaltbild zur Verdeutlichung des erfindungsgemaBen Verfahrens. Das neuronale Netz 
NNw soil hier das technische System f steuern. Zum einen ist das neuronale Netz NN. dargestellt und zum 
anderen das technische System f. Die Indizes t und t- 1 sind die zehlichen Abhangigkeiten der emzelnen Werte 
voneinander abgegeben. Der Index - 1 bedeutet dabei. daB der betrachtete Wert sich in der Zeitreihe vorderr 
Wert befindet, welcher den Index t hat. Vom neuronalen Netz wird uber die Verbmdungsleitung 150 die 
StellgroBe u,_ i an das technische System f abgegeben. Unterwegs wird dieser Wert nach dem erfindungsgema- 
Ben Verfahren an einer VerknupfungssteDe "+ " mit einem Rauschen von bekannter Rauschverteuung e uberia- 
gert. Dem technischen System f wird dieser Wert u t -i + e zusammen mit dem Wert y t _i zugefuhrt. Das 
technische System f reagiert auf diese StellgroBe, indem es eine RegelgroBe y, erzeugt. Diese RegelgroBe wird 
einem VerzogerungsgUed Zl zugefuhrt, welche beispielsweise gleichzeitig eine Additionsrunktion enthalt. Die- 
ses Verzogerungsglied verzogert beispielsweise den vom technischen System abgegebenen Wert y, urn erne 
Zeiteinheit, urn so den Eingangswert fiber die Leitung 180 fur das technische System zur Verfugung steUen zu 
kdnnen. Weiter wird dieser Wert y,-i auch uber die Leitung 100 an das neuronale Netz NNw abgegeben. 
Zusatzlich ist in Fig. 2 das Rauschen 6 dargestellt, welches beispielsweise an derVerknupfungsstelle und dem 
VerzogerungsgUed Zl der RegelgroBe uberlagert werden kann. Diese Art der Oberlagerung ist jedoch mcht 
norwendige Voraussetzung fur die Funktionsfahigkeit des erfindungsgemaBen Verfahrens. 

Beispielsweise stent das System eine Heizungsanlage dar, das einen Zustand y_i zum Zeitpunkt t- 1 und erne 
KontroUaktion zum Zeitpunkt t-1, welche als u,_i bezeichnet ist, wie etwa Emschalten, auf einen neuen 
Zustand zum Zeitpunkt t, der mit y t bezeichnet ist, abbUdet Ferner wird beispielsweise em gewunschtes 
Solhrerhalten durch eine fCostenfunktion C(y) vorgegeben, die etwa OCy)=(y-ya>n) 2 lautet Ziel ist es beispiels- 
weise, das System mit einem neuronalen Netz NNw so zu steuern, daB die Kosten mimmiert werden. Vorzugs- 
weise konnen die Kosten in ferner Zukunft beispielsweise schwicher gewichtet werden. Hierzu wird beispiels- 
weise ein Abschlagsfaktor y*- 1 eingefuhrt, wobei 0<y< 1 gilt. Hierzu mussen die Parameter des Netzes NN». 
also dessen Gewichte richtig eingesteUt, d. h. tramiert werden. Dies erfolgt vorzugsweise mittels Gradientenab- 
stieg. Dabei durf en u, und yt, auch Vektoren sein, die Kostenfunktion kann auch zeitabhangig sem, wie beispiels- 
weise Ct (yt). Die Anfangsbedingungen mussen dabei nicht f est sein. was kein Problem bei der Losung nach dem 
erfindungsgemaBen Verfahren darstellL Im erfindungsgemaBen Fall werden das technische System und das 
neuronale Netz als nicht deterministisch behandelL Zum Training des Netzes muB vorzugsweise der Gradient 
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der Kosten nach den Gewicbten bestimmt werden. Dieser ist in (1 1 # ) angegeben. 

Vorzugsweise wird beim erfmdungsgemaBen Verfahren das System simuliert, oder das reale System benutzt 
und die StellgroBe mitteis GauBrauschen uberlagert Die Kosten and nun ZufallsgroBe und durch die Gleichung 
(12##)gegeben- . . ^ 

Dabei verschwindet das Produkt der Ablehung, welches sicfa bei einer detenmnistischen Losung, die hier mcht 5 
dargesteQt ist, ergeben wurde. Das neuronale Netz wird nun zunacnst mitteis Zufallsdaten inhialisiert, <L h. die 
Gewichte werden irgendwie eingestellt AnschlieBend wird das reale System nut den verrauscbten StellgrdBen 
betrieben, unabhangig davon kann auch ein Model] verwendet werden, und es werden die StellgrdBen beobach- 
tet, welche void System abgegeben werden. Vorzugsweise wird von mehreren Durchlaufen des Systems eine 
Zeitreihe aufgenommen. Dabei werden beispielsweise sowohl die StellgrdBen als audi die RegelgrdBen proto- 10 
kolliert Im AnschluB wird diese Zeitreihe dem neuronalen Netz zugefuhrt, urn eine gunstige Steuerung des 
technischen Systems zu erlernen. Durch die vorgegebene Kostenfunktion werden dabei solche Gewichtsveran- 
derungen am neuronalen Netz begunstigt, <L h. verstarkt oder weniger gedampft, welche geringere Kosten 
bewirken. Falls dieses Trainingsverfahren mehrfach durchgefuhrt wird, d. h. falls mehrere Zehreihen aufgenom- 
men werden, und mit diesen das neuronale Netz trainiert wird, so ergibt sich eine sehr zuverlassige Einstellung is 
der Gewichte des neuronalen Netzes. Unabhangig von der beispielhaft vorgestellten Kostenfunktion konnen 
auch andere Kostenfunktionen angedacht werden. Letztendlich ist es wichtig, dafi diese Kostenfunktion eine 
Verstarkung, bzw. Abschwachung der am Netz eingestellten Gewkhtsfaktoren bezugiich eines gunstigen Sy- 
stemverhaltens des technischen Systems erreicht 

Durch das erfmdungsgemaBe Verfahren kann auf diese Weise uber einer statistischen Verteilung der Zeitrei- 20 
hen mitteis zufallig gestorter StellgrdBen eine Einstellung der Gewichte am neuronalen Netz gefunden werden, 
welche ein gunstiges Sollverhalten des technischen Systems bewirkt 

Fig. 2 erlautert weiter ein Beispiel des erfmdungsgemaBen Verfahrens anhand eines Blockschaltbildes. GemaB 
diesem Beispiel sei eine Zeitreihe der Form: 

25 

yt=f(yt-i,Ut-i)+St (1#) 
gegeben mit 

u t =NNw(yt)+et (l##) 30 
undT: 

Intervallbrehe zur Erreichung des Sollzustandes. 

Nach dem erfmdungsgemaBen Verfahren soli nun das neuronale Netz so trainiert werden, indem die einzustel- 
lenden Gewichte an den Neuronen so gewahlt werden, daB die gemaB einer Kostenfunktion zu bewertenden 35 
erwarteten Kosten innerhalb des Intervalles T minimiert werden. Diese lassen sich allgemein als 



E(cx>st)aJ]^ 



40 



fc=I 

darstellen mit: 

y < 1 Abschlagsf aktor fur zukunftige Werte der Zeitreihe 45 



P(yi y T )=i , (yi)rLp(y.b r w) 



50 



Wahrscheinlichkeit fur das Auftreten bestimmter Werte innerhalb der Zeitreihe, 

Um das Regelverhalten des neuronalen Netzes zu optimieren, wird gemaB dem erfmdungsgemaBen Verfah- 
ren zunacnst der Gradient der zu erwartenden Kosten nach den Gewichten des neuronalen Netzes gebildet: 

9E(cost) *f . fv^^ B H)9NNw(y^) 1 

P(yi— yjdyx—dy, (ii#) 



60 



diese Losung kann durch stochastisches Sampling approximiert werden, indem die Gleichung (9c) analog 
angewendet wird. Das heiBt in diesem Fall, daB das neuronale Netz zusammen mit dem technischen System, oder 65 
seinem Modell mehrere Zeitzyklen lang betrieben wird, und daB mehrere Zehreihen von y und u aufgenommen 
werden, Die Mittelwertbildung der mit diesen Zehreihen gebildeten Gradienten, fuhrt dann zu den Werten, 
welche fur das Training Verwendung ftnden. Fallweise kann es hierzu jedoch gunstig sein die Kostenfunktion so 
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zu gestalten, Haft groBe Gewichte an einzelnen Neuronen bestraft werden, also hohe Kosten venirsachen, oder 
die Zahl und Starke der Steueraktionen des Netzes berucksichtigt, um unendlich starke Steueraktionen vermei- 
den zu konnen. Mit derobigen Voraussetzung fur Ut ergibt sich 



1=2 



xP(yi».--*yi»^»---.»i- 1 )dyi^«»dy 1 ,dix 1 ,...,du w (12#) 

als Gradient fur die zu erwartenden Kosten. Durch analoge Anwendung von (9c) vereinfacht sich dieser zu 



3E(COSt) 

dw 



XXJY M (y 1 ,,u u )x[x^^^(a m3 -NN w (y_))| (12##) 

1=1 r=l Um=l OW J 



mit: 

T: Anzahl der Zekeinheiten je Zeitreihe 
S: Anzahl der Zeitreihen 

y< 1 Abschlagsfaktor fur zukunftige Werte der Zeitreihe 
NN W : vom neuronaien Netz erzeugter Wert 
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Patenta nspruche 

1. Verfahren zum Training eines neuronaien Netzes mit dem nicht detenninistischen Verhalten eines 
technischen Systems, 

a) bei dem das neuronale Netz mit dem technischen System, oder einem Modell davon so in einen 
Regelkreis eingebunden wird, daB das neuronale Netz als AusgangsgroBe mindestens eine StellgroBe 
an das technische System, oder sein Modell abgibt und das technische System oder sein Modell aus der 
vom neuronaien Netz zugefuhrten StellgroBe, mindestens eine RegelgroBe erzeugt, die dem Neurona- 
ien Netz als EingangsgroBe zugefuhrt wird, 

b) bei dem die StellgroBe mit einem Rauschen von bekannter Rauscfaverteilung uberiagert wird, bevor 
sie dem technischen System oder seinem Modell zugefuhrt wird, 

c) und bei dem die Gewichte des neuronaien Netzes in Reaktion auf die durch das aufgepragte 
Rauschen veranderte RegelgroBe wie folgt eingestellt werden: 

es wird von einer KostenfunkrJon bewertet, ob die Gewichtsanderung am Netz, die nach bekannten 
Lernverfahren eingestellt wird, eine Verbesserung der RegelgroBe in Bezug auf ein Sollverhalten des 
technischen Systems bewirkt hat und solche GewichtseinsteQungen werden durch die Kostenfunktion 
begunstigt. 

2. Verfahren nach Anspruch 1, bei dem die Gewichtseinstellungen durch die Kostenfunktion dahingehend 
bewertet werden, ob die Gewichtsanderung am Netz, die nach bekannten Lernverfahren eingestellt wird, 
eine Verschlechterung der RegelgroBe in Bezug auf ein Sollverhalten des technischen Systems bewirkt hat 
und solche Gewichtseinstellungen durch die Kostenfunktion abgeschwacht werden. 

3. Verfahren nach Anspruch 1 oder 2, bei dem die Gewichte des neuronaien Netzes in Reaktion auf die 
durch das aufgepragte Rauschen veranderte RegelgroBe wie folgt eingestellt werden: 

i) die Neuronengewichte werden beliebig initialisiert; der Regelkreis wird eine Mehrzahl von Zeitzy- 
klen betrieben und es werden sowohl die RegelgroBe, als audi die StellgroBe in Form von je einer 
Zeitreihe protokolliert, 

ii) die Neuronengewichte werden nach bekannten Lernverfahren eingestellt und es wird jewefls fur 
jeden Wert der Zeitreihe der Gradient der Gewichtsanderung an den Neuronen in Abhangigkeit von 
der StellgroBe und des bekannten Rauschens bestimmt, wobei dieser Vorgang mehrfach wiederholt 
wird und dabei von einer Kostenfunktion bewertet wird, wie gunstig sich die RegelgroBe in Bezug auf 
ein Sollverhalten des technischen Systems als Reaktion darauf verhalt. 

4. Verfahren nach Anspruch 2, bei dem eine Vielzahl von Zeitreihen auf genommen wird und die Neuronen- 
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gewichte furjeweils eine Zehreihe best^Tnmt werden, welche als Einzelwerte die arithmetischen Mittelwerte 
der aufgenommenen Zeitreihen h at 

5. Verfahrea nach einem der vorangehenden Anspruche, bei dem eine GauBverteDung als bekannte Rausch- 
verteilung verwendet wird. 

6. Verfahren nach Anspruch 4, mit einer Zehreihe der Formel: 5 
yt «f(yt-i,ut-i) 

mit: 10 



15 



NN W : vom neuronalen Netz erzeugter Wert 

bei dem die Gewichte an den Neuronen wie folgt bestimmt werden: 



mh: 

T: Anzahl der Zeitemheiten je Zehreihe 25 
S: Anzahl der Zeitreihen 

y< 1 Abschlagsfaktor fur zukunftige Werte der Zehreihe. 

7. Verfahren nach einem der vorangehenden Anspruch e, bei dem die RegelgroBe mit einem Rauschen von 
bekannter Rauschverteilung der Form 

30 

ut = NNw(yt)+St 

uberiagert wind 
mh: 

35 

5 t € 9t D * 
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